智能论文笔记

Lerna: Transformer Architectures for Configuring Error Correction Tools for Short- and Long-Read Genome Sequencing

Atul Sharma , Pranjal Jain , Ashraf Mahgoub , Zihan Zhou , Kanak Mahadik , Somali Chaterji

分类：机器学习

2021-12-19

测序技术容易出错，对下游应用程序进行纠错（EC）。需要手动配置EC工具以获得最佳性能。我们发现最佳参数（例如，k-mer大小）是依赖于工具和数据集。此外，评估给定工具的性能（即，对准速率或增益）通常依赖于参考基因组，但是质量参考基因组并不总是可用的。我们介绍了基于K-MEC的自动配置的Lerna。 Lerna首先创建未校正的基因组读取的语言模型（LM）;然后，计算困惑度量以评估不同参数选择的校正读取。接下来，在不使用参考基因组的情况下发现产生最高对准率的那个。我们的方法的基本直觉是困惑度量与纠错后的组件的质量与组件的质量相反。结果：首先，我们表明，即使对于相同的EC工具，不同的数据集也可以对不同的数据集格变化。其次，我们使用其组件基于关注的变压器显示了我们的LM的收益。我们展示了误差校正前后困惑度量的模型的估计。校正后的困惑越低，k-mer大小越好。我们还表明，用于校正读取的对准率和组装质量与困惑强烈地呈负相关，从而实现了k-mer值的自动选择以获得更好的纠错，因此改善的组装质量。此外，我们表明我们的注意力模型对于整个管道的重大运行时间改善 - 由于并行化注意机制和JIT编译对GPU推理的使用JIT编译，因此整个管道的运行时间更快。

translated by 谷歌翻译